iT邦幫忙

2022 iThome 鐵人賽

DAY 21
0
AI & Data

親手打造推薦系統系列 第 21

Day21 - 3 個影片資料集的介紹 - 親手打造推薦系統

  • 分享至 

  • xImage
  •  

學了推薦演算法,沒有數據也枉然。除了自己爬資料外,今天介紹 3 個做影片推薦時可以用的 dataset。

一、MoveieLens Dataset

https://grouplens.org/datasets/movielens/

這是電影推薦研究時常使用 movielens上 的 dataset。MoveieLens 可以說是是推薦系统領域裡最經典的資料集,它的地位就像是 MNIST,是學推薦時必玩的 dataset 。

它陸續推出不同的版本,在2003年2月時,有推出 1M 的版本 (https://grouplens.org/datasets/movielens/1m/)。
另外還有10M(2009年1月)、20M(2015年4月)。目前最新的是 2019年12月份的 25M dataset。

但 20M 的版本還有一個有趣的地方,他有對映的 Youtube 電影預告的dataset (https://grouplens.org/datasets/movielens/20m-youtube/)

二、TMDB 5000 Movie Dataset

https://www.kaggle.com/tmdb/tmdb-movie-metadata

這是在 kaggle 裡的dataset。這個題目是:如果你是電影行業的數據分析師,那有沒有辦法以電影公司的角度來思考,可以從數據裡找出哪些資訊呢? 例如:

  1. 可以找到電影風格的變化嗎?
  2. 什麼電影的收益能力最好?
  3. 不同的風格電影,收益能力如何?

為了能回答這些問題, TMDB 的dataset裡除了基本的電影資料外,還包含了演員、工作人員、預算、收益等等資料。

這個dataset,很多的欄位都是存入 JSON 格式,要用之前要先整理才行。

三、Anime Recommendations Database

https://www.kaggle.com/datasets/CooperUnion/anime-recommendations-database

這是動畫 dataset,資料來自 myanimelist.net ,它蒐集了73,516使用者對12,294 部動畫的投票。

它的 dataset 裡只有 Anime.csv 和 Rating.csv 2 個檔案。Anime.csv 主要是放動畫的資料,如名稱、分類等等。Rating.csv 就單純記錄誰對哪部動畫評幾分(1分到10分)。算是一個小巧簡單的 dataset ,拿來做協作過濾、矩陣分解等等都可以用。

小結

以上就是今天要介紹的3 個影片dataset。每個dataset內容不太一樣,所以可以測試的推薦演算法也不太一樣。以上供大家在學習推薦系統時,有資料可以用。


上一篇
Day20 - GBDT + LR 是如何找出特徵組合做推薦? - 親手打造推薦系統
下一篇
Day22-用 Surprise 實作矩陣分解 SVD 推薦系統 - 親手打造推薦系統
系列文
親手打造推薦系統30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言